@雷蕾:《语言数字人文:“小帐篷”理论框架》
摘要
语言数字人文是采用数字技术和方法以提出或解决语言学及其相关问题为目标的新兴研究领域。如果数字人文是一顶“大帐篷”,则语言数字人文是数字人文这顶“大帐篷”下的“小帐篷”。语言数字人文具有天然的跨学科属性,在这顶“小帐篷”下,语言学、文学、翻译、计算机科学、信息科学、社会学、心理学、新闻传播等学科的智慧和方法交叉碰撞产生新知。然而,由于其理论体系尚未建立,语言数字人文尚未成为一门独立的学科。因此,本文从理论探索、应用研究、基础建设等方面尝试构建语言数字人文理论框架。我们认为,在当前语言数字人文发展的初期,我们需要搁置学科还是方法的争议,尊重语言数字人文的实践属性,以应用研究和基础建设成果推动语言数字人文研究的发展,助力新文科建设。
1. 引言
- 数字人文作为跨学科研究的热门话题,指将计算机和数字技术运用于传统人文学科的研究与教学。
- 近年来,中国语言文学门类下增列“数字人文”专业,体现了国家对数字人文的重视。
- 本文提出了语言数字人文“小帐篷”理论框架,分理论探索、应用研究、基础建设三个部分阐述语言数字人文的内涵,并讨论语言学研究者参与数字人文研究的路径
2. 数字人文发展源流
2.1 早期的数字人文研究
- 数字人文起源于实践需求和研究需求。20世纪50年代,罗伯托·布萨利用计算机标注拉丁语神学著作,这被视为数字人文的开端。
- 1960至1970年代,跨学科的实证社会科学方法开始影响人文学科。
2.2 20世纪的数字人文
- 自 20世纪 60年代始,研究者已不满足于类似罗伯托·布萨所做的基础文本检索工作,而开始了基于文本特征的更深入的探索。
- 如Mosteller和Wallace(1964)运用同义词对(如big与large)、虚词等文本特征进行《联邦党人文集》的作者身份识别研究。
- 数字人文领域两本期刊的创刊则标志着“人文”研究离不开数字“计算”已成为业界共识
- 《计算机与人文》(Computers and the Humanities)2005 年更为现名《语言资源和评估》(Language Resources and Evaluation)
- 《文学与语言计算》(Literary and Linguistic Computing)2015年更名为《数字人文学刊》(Digital Scholarship in the Humanities)
- Presner(2010)在《数字人文宣言2。0》中将20世纪90年代末至21世纪初的数字人文发展概括为两个阶段。
- 1.0阶段,从20世纪90年代末至21世纪初,大规模实体材料/文献的数字化或技术基础建设工作开始涌现,但研究内容依然聚焦或局限于已有学科内部的文本分析
- 2.0阶段,2005年以后。开始突破传统学科界限,“生产、管理和交互‘天生数字化’的知识”。有了其专业实践和理论探索
- 国内数字人文发展也日益快速,但依然处于迷茫期,缺乏独特的理论基础和研究方法。
- 王贺将2019年称作国内“数字人文元年”,首份专业期刊《数字人文》创刊,学术会议交流等活动在全国各地举行。
2.3 数字人文“大帐篷”
- 数字人文因其跨学科的特性,曾被比喻为“马戏团的‘大帐篷’”,容纳所有采用数字技术与人文学科相关的研究。
3. 语言数字人文“小帐篷”
3.1 语言学研究者的参与
- 语言学,尤其是计算语言学和语料库语言学,与数字人文有天然的亲近感,因此语言学研究者应积极参与数字人文研究。
- 通过文本数据的研究,语言学者可以在数字人文领域贡献智慧。
3.2 语言数字人文的定义
- 语言数字人文定义为“采用数字技术与方法,以提出或解决语言学及相关问题为目标的研究领域”。
- 它不仅解决传统语言学问题,还借助数字技术突破语言学的学科界限,发现或提出新的问题。
4. 语言数字人文理论框架
4.1 理论探索
- 语言数字人文的学科定位尚不明确,虽然具有独特的研究对象和方法,但缺乏系统的理论体系,尚未形成独立学科。
- 语言数字人文与其他相关学科(如语料库语言学、计算语言学)有交集,但也存在方法与目的的差异。
- 与语料库语言学:语言数字人文除了采用传统语料库语言学方法以外,更多采用计算语言学和自然语言处理成熟的方法和数字技术来提取语言特征;
- 与计算语言学:语言数字人文以解决语言学相关问题为其核心议题,而计算语言学以解决如文本分类、机器翻译等工程问题为其主要目的
4.2 应用研究
- 研究对象
- 运用数字技术研究传统的语言学问题(如语言本体、二语习得与教学、语言测试、词典编纂等)
- 运用数字技术提取语言风格或语言特征并与其他领域相结合的研究
- 数字技术
4.3 基础建设
- 基础建设包括基础数据资源建设主要包括文本和其他多模态数据资源建设。
- 例如,中国开发的《古籍语料库》和《现代汉语平衡语料库》为研究汉语提供了重要的资料。
- 语言数字人文的基础建设还包括研究平台和工具的开发。
5. 结语:语言数字人文的未来
- 语言数字人文作为数字人文的分支研究领域,仍面临学科界限不清的问题,但其跨学科属性使其具有发展潜力。
- 在理论探索的同时,我们需要尊重语言数字人文的实践属性,以更多应用研究和基础建设成果推动语言数字人文研究的发展。
- 同时,还需关注语言数字人文学科的发展及人才培养,促进该领域的进一步发展。